DALL·E 2 解读 | 结合预训练 CLIP 和扩散模型实现文本

date

Nov 2, 2022

Last edited time

Mar 27, 2023 08:45 AM

status

Published

slug

DALL·E2解读|结合预训练CLIP和扩散模型实现文本-图像生成

tags

DDPM

summary

type

Post

origin

https://www.notion.so/lazurite/DALL-E-2-CLIP-2856294e059640408c0d9f33ca12c698

Field

Plat

DALL·E 2 解读 | 结合预训练CLIP和扩散模型实现文本-图像生成

DALL·E 2 这个模型的任务很简单：输入文本text，生成与文本高度对应的图片。它主要包括三个部分：CLIP，先验模块prior和img decoder。其中CLIP又包含text encoder和img encoder。（在看DALL·E 2之前强烈建议先搞懂CLIP模型的训练和运作机制） DALL·E 2是将其子模块分开训练的，最后将这些训练好的子模块拼接在一起，最后实现由文本生成图像的功能。 1. 训练CLIP，使其能够编码文本和对应图像这一步是与CLIP模型的训练方式完全一样的，目的是能够得到训练好的text encoder和img encoder。这么一来，文本和图像都可以被编码到相应的特征空间。对应上图中的虚线以上部分。 2. 训练prior，使文本编码可以转换为图像编码论文中对于该步骤作用的解释为： A prior P(z_i|y) that produces CLIP image embeddings z_i conditioned on captions y . 实际的训练过程为：将CLIP中训练好的text encoder拿出来，输入文本y，得到文本编码z_t。同样的，将CLIP中训练好的img encoder拿出来，输入图像 x 得到图像编码z_i。我们希望prior能从z_t获取相对应的z_i。假设z_t经过prior输出的特征为z_{i}^{'}，那么我们自然希望z_{i}^{'}与z_i越接近越好，这样来更新我们的prior模块。最终训练好的prior，将与CLIP的text encoder串联起来，它们可以根据我们的输入文本y生成对应的图像编码特征z_i了。关于具体如何训练prior，有兴趣的小伙伴可以精度一下原文，作者使用了主成分分析法PCA来提升训练的稳定性。在DALL·E 2 模型中，作者团队尝试了两种先验模型：自回归式Autoregressive (AR) prior 和扩散模型Diffusion prior [1]。实验效果上发现两种模型的性能相似，而因为扩散模型效率较高，因此最终选择了扩散模型作为prior模块。本文不具体解释扩散模型，大家可以查阅参考博文，或者我后期再整理相关知识。 3.

https://zhuanlan.zhihu.com/p/526438544

一、导读

论文信息

论文标题: 《Hierarchical Text-Conditional Image Generation with CLIP Latents》

作者 / 单位：Aditya Ramesh et al. / Open AI

论文链接

Hierarchical Text-Conditional Image Generation with CLIP Latents

Contrastive models like CLIP have been shown to learn robust representations of images that capture both semantics and style. To leverage these representations for image generation, we propose a two-stage model: a prior that generates a CLIP image embedding given a text caption, and a decoder that generates an image conditioned on the image embedding.

https://arxiv.org/abs/2204.06125

2204.06125.pdf

41899.7KB

代码链接: 非官方实现 https://github.com/lucidrains/DALLE2-pytorch

二、DALL·E 2 模型解读

DALL·E 2 模型总览

DALL·E 2 这个模型的任务很简单：输入文本 text，生成与文本高度对应的图片。

它主要包括三个部分：CLIP，先验模块 prior 和 img decoder。其中 CLIP 又包含 text encoder 和 img encoder。

DALL·E 2 训练过程

DALL·E 2 是将其子模块分开训练的，最后将这些训练好的子模块拼接在一起，最后实现由文本生成图像的功能。

1. 训练 CLIP，使其能够编码文本和对应图像

这一步是与 CLIP 模型的训练方式完全一样的，目的是能够得到训练好的 text encoder 和 img encoder。这么一来，文本和图像都可以被编码到相应的特征空间。对应上图中的虚线以上部分。

2. 训练 prior，使文本编码可以转换为图像编码

论文中对于该步骤作用的解释为：

A prior that produces CLIP image embeddings conditioned on captions .

实际的训练过程为：将 CLIP 中训练好的 text encoder 拿出来，输入文本，得到文本编码。同样的，将 CLIP 中训练好的 img encoder 拿出来，输入图像得到图像编码。我们希望 prior 能从获取相对应的。假设经过 prior 输出的特征为，那么我们自然希望与越接近越好，这样来更新我们的 prior 模块。最终训练好的 prior，将与 CLIP 的 text encoder 串联起来，它们可以根据我们的输入文本生成对应的图像编码特征了。关于具体如何训练 prior，有兴趣的小伙伴可以精度一下原文，作者使用了主成分分析法 PCA 来提升训练的稳定性。

在 DALL·E 2 模型中，作者团队尝试了两种先验模型：自回归式 Autoregressive (AR) prior 和扩散模型 Diffusion prior [1]。实验效果上发现两种模型的性能相似，而因为扩散模型效率较高，因此最终选择了扩散模型作为 prior 模块。本文不具体解释扩散模型，大家可以查阅参考博文，或者我后期再整理相关知识。

3. 训练 decoder 生成最终的图像

论文中对于该步骤作用的解释为：

A decoder that produces images conditioned on CLIP image embeddings (and optionally text captions ).

也就是说我们要训练 decoder 模块，从图像特征还原出真实的图像，如下图左边所示。这个过程与自编码器类似，从中间特征层还原出输入图像，但又不完全一样。我们需要生成出的图像，只需要保持原始图像的显著特征就可以了，这样以便于多样化生成，例如下图右边的示例。\

DALL-E 2 使用的是改进的 GLIDE 模型。这个模型可以根据 CLIP 图像编码的，还原出具有相同与有相同语义，而又不是与完全一致的图像。

DALL·E 2 推理过程（由文本生成图像过程）

经过以上三个步骤的训练，已经可以完成 DALL·E 2 预训练模型的搭建了。我们这事丢掉 CLIP 中的 img encoder，留下 CLIP 中的 text encoder，以及新训练好的 prior 和 decoder。这么一来流程自然很清晰了：由 text encoder 将文本进行编码，再由 prior 将文本编码转换为图像编码，最后由 decoder 进行解码生成图像。

三、DALL·E 2 实验效果和不足之处

实验效果

看下 DALL·E 2 在 MS-COCO prompts 上的生成效果：

不足之处

本文作者提到了 DALL·E 2 的三个不足之处：

DALL·E 2 容易将物体和属性混淆，比如下图 DALL·E 2（unCLIP) 与 GLIDE 的对比。提示的文字为：“a red cube on top of a blue cube”。

DALL·E 2 不容易将红色和蓝色分辨出来。这可能来源于 CLIP 的 embedding 过程没有将属性绑定到物体上；并且 decoder 的重建过程也经常混淆属性和物体，如下图所示，例如中间的柯基图片，有的重建结果将其帽子和领结的颜色搞反了。

DALL·E 2 对于将文本放入图像中的能力不足，如下图所示，我们希望得到一个写着 deep learning 的标志，而标志却将单词 / 词组拼写得很离谱。这个问题可能来源于 CLIP embedding 不能精确地从输入地文本提取出 “拼写” 信息。

3.DALL·E 2 在生成复杂场景图片时，对细节处理有缺陷，如下图所示生成 Times Square 的高质量图片。这个可能来源于 decoder 的分层（hierarchy）结构，先生成 64 × 64 的图像，再逐步上采样得到最终结果的。如果将 decoder 先生成的图像分辨率提高，比如从 64 × 64 提升到 128 × 128，那么这个问题可能可以缓解，但要付出更大计算量和训练成本的代价。

Reference

[1] Denoising diffusion probabilistic models

[2] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models.

DALL·E 2 解读 | 结合预训练 CLIP 和扩散模型实现文本 - 图像生成